Gedanken zur maschinellen Übersetzung

Einführung und Anmerkungen

Dieser Beitrag richtet sich an Leser aus der Übersetzungswirtschaft, die sich (noch) nicht eingehend mit der maschinellen Übersetzung beschäftigt haben, sowie an die interessierte Öffentlichkeit.

Im Interesse der allgemeinen Verständlichkeit wird hier die Bezeichnung „maschinelle Übersetzung“ genutzt. Der Verfasser hält diese Bezeichnung jedoch für irreführend, da dieser suggeriert, die sogenannte „menschliche Übersetzung“ und die „maschinelle Übersetzung“ wären in ihrem Ergebnis dasselbe, nur jeweils händisch oder maschinell erreicht. Dies ist eindeutig nicht der Fall. Zudem ist der Verfasser der Meinung, Übersetzen sei unzertrennbar mit Verstehen verknüpft, was für die maschinelle Übersetzung nicht gilt.

In Anlehnung an Bezeichnungen wie „Kunstleder“ bzw. „künstliche Intelligenz“ hält der Verfasser entsprechende Bezeichnungen wie „Kunstübersetzung“ oder „künstliche Übersetzung“ für zutreffender. Schließlich ist Kunstleder nicht Leder – auch dann nicht, wenn es in seinen Eigenschaften dem echten Leder überlegen ist.

In diesem Beitrag wird das generische Maskulinum verwendet. Sinn und Zweck hiervon ist, dass Sie beim Lesen nicht von der geschlechtergerechten Sprache abgelenkt werden. Ein Beitrag des Verfassers zum Thema geschlechtergerechte Sprache ist im Impressum verlinkt.

Wirtschaftlicher Hintergrund

Der Wohlstand heutiger Industrieländer beruht weniger auf dem technischen Fortschritt an sich, als auf der damit gewonnenen Effizienz. Nehmen wir als Beispiel die Waschmaschine: Sie reduziert die für eine Ladung Wäsche erforderliche Arbeitszeit des Bedieners von Stunden auf wenige Minuten.

Diese Zeitersparnis wird durch moderne Technik erzielt, und zwar weniger durch die Technik der Waschmaschine selbst, als durch die der Fabrik, die eine äußerst effiziente Herstellung der Maschine zu entsprechend niedrigen Kosten ermöglicht. Mitte der 1960er Jahre kostete eine Waschmaschine drei Monatsgehälter eines durchschnittlichen männlichen Arbeitnehmers; heute ist ein preiswertes Modell für zwei Durchschnittstagesgehälter zu haben.

Ähnliches sieht man überall in unseren hochtechnologieorientierten Volkswirtschaften. Luxus ist das, was man sich gönnt. Wohlstand ist das, was uns Zeit erspart, denn Zeit ist unser kostbarstes, endlichstes menschliches Gut. Auch die Güte dieses Artikels lässt sich daran messen, ob Sie dazu bereit sind, Ihre Zeit daran zu verschwenden (eher nicht) oder darin zu investieren (vielleicht doch).

Im Interesse einer gestiegenen Effizienz hat die Technik immer mehr menschliche Aufgaben übernommen. Auf manuelle Tätigkeiten wie die wöchentliche Wäsche folgten geistige Tätigkeiten, vor allem solche, die keine Kreativleistung erforderten, sondern sich routinemäßig ausführen ließen. Auf einen Bankkassierer trifft man heute nur noch selten. Für den typischen Bankkunden sind niedrige Kontoführungsgebühren ausschlaggebend; dafür verzichtet er gerne darauf, die abgehobenen Geldscheine von einem Menschen am Schalter gereicht zu bekommen. Dafür gibt es Maschinen, anfangs teuer in der Herstellung, langfristig aber viel effizienter. Die Bezeichnung „Bankautomat“ sagt alles.

Kurze Geschichte der maschinellen Übersetzung

Im Zeitalter der künstlichen Intelligenz wagen sich die Techniker in immer mehr Bereiche, wo sich menschliche Tätigkeiten automatisieren lassen oder lassen könnten. So auch in den Bereich der Übersetzung. Das Übersetzen menschlicher Sprache ist eine recht zeitaufwändige Tätigkeit. Diese erfordert neben weiteren Fähigkeiten die Beherrschung einer Fremdsprache, was in der Regel teuer – d. h. mit viel Zeitaufwand – angeeignet werden müsste. Die Verlockung, diese Tätigkeit zu automatisieren, liegt auf der Hand.

Regelbasierte maschinelle Übersetzung

Ernsthafte Versuche, Texte durch Computer übersetzen zu lassen, gibt es seit den sechziger Jahren des vorigen Jahrhunderts. Anfangs hat man es mit der sogenannten „regelbasierten maschinellen Übersetzung“ versucht. Hiermit wollte man dem Computer die Regeln zweier Sprachen (Ausgangs- und Zielsprache) beibringen, genauso wie man klassisch einem Menschen eine Fremdsprache beibringt. Grammatik und Vokabeln standen im Vordergrund.

Das „Regelwerk“ einer Sprache stellte sich allerdings als kaum zu überwindendes Hindernis heraus. Die grammatischen Grundregeln sind zwar schnell erfasst, formuliert und einprogrammiert. Eine Sprache weist aber typischerweise ungemein viele Nebenregeln auf, über die teilweise sogar professionelle Redakteure und Übersetzer streiten. Werden diese Nebenregeln nicht beachtet, wirkt ein Text bestenfalls holprig; schlimmstenfalls ist er irreführend. Muttersprachler lernen möglicherweise die Grundregeln der eigenen Sprache – ihre Grammatik – in der Schule. Die vielen Nebenregeln erlernen sie jedoch nicht formell, sondern durch Kontakt mit der Sprache, und zwar nicht bewusst in Form von Regeln, sondern unterbewusst als Muster und Strukturen. Diesen Prozess in der Computerprogrammierung dadurch abzubilden, dass man sämtliche Haupt- und Nebenregeln einzeln manuell einprogrammiert, sprengt den Rahmen der Effizienz. Die regelbasierte Übersetzung dümpelte infolgedessen mehrere Jahre vor sich hin.

Statistische maschinelle Übersetzung

Die nächste Fortschrittsetappe erfolgte Ende der 1990er Jahre. Durch die rasante Entwicklung der Informationstechnologie und das exponentielle Wachstum an Rechnerleistung wurde es möglich, enorme Mengen an Daten zu verarbeiten. Parallel dazu entstanden ebenso enorme Mengen an verwertbaren Daten: in Form von im Internet verfügbaren Texten und deren Übersetzungen (sogenannten zweisprachigen „Korpora“). Mit diesen – oft professionell erstellten – Übersetzungen gespeist konnte der Computer mit einem anderen Ansatz übersetzen: mit dem der Wahrscheinlichkeit. Es entstand die statistische maschinelle Übersetzung.

Die statistische maschinelle Übersetzung basiert auf dem Grundsatz, dass bestimmte Textelemente (im einfachsten Fall Wörter) statistisch häufiger in einem Verhältnis zu bestimmten anderen Textelementen stehen. Je häufiger eine Bezeichnung oder eine Formulierung in der Ausgangssprache in einem jeweils ähnlichen kontextuellen Umfeld (d. h. in der Nähe bestimmter weiterer Bezeichnungen und Satzteile) mit einer bestimmten Bezeichnung bzw. Formulierung im Zieltext übersetzt wurde, desto wahrscheinlicher ist es, dass es sich um die passende Übersetzung handelt.

Aus sprachwissenschaftlicher Sicht erscheint es zunächst wie ein Rückschritt, wenn der übersetzende Computer nicht mehr versucht, die Grammatik des Ausgangstextes (geschweige denn dessen Sinn) zu verstehen, sondern die „richtige“ Übersetzung lediglich anhand von Wahrscheinlichkeiten ermittelt. Der Vorsprung bestand jedoch darin, dass sich dieser Prozess weitgehend automatisieren ließ. Der Computer lernte zwar nicht besonders gut, zumindest anfangs, aber er lernte wenigstens autonom.

Das Ergebnis waren Formulierungen, die zwar nützlich, aber auch für den Laien mitunter als Fehlübersetzungen erkennbar und nicht selten auch sehr lustig sind. Trotzdem: Durch Online-Dienste wie Google Translate gelang der statistischen maschinellen Übersetzung der Einzug in den Alltag. Ihr Nutzen für das sogenannte „Gisting“, d. h. für eine allgemeine Zusammenfassung dessen, worum es in einem Text überhaupt geht oder zum Ermitteln der Hauptaussagen, war offensichtlich. Das richtige Übersetzen blieb jedoch den professionellen Übersetzern vorbehalten.

Neuronale maschinelle Übersetzung

Die jüngste wesentliche Entwicklung in der maschinellen Übersetzung, nämlich die neuronale maschinelle Übersetzung (NMÜ bzw. auf Englisch NMT), geschah in den Jahren 2014 bis 2017. In Deutschland insbesondere durch den Onlinedienst der Kölner Firma DeepL bekannt, verblüffte sie mit oft recht genauen und vergleichsweise idiomatischen Übersetzungen. (Das galt bzw. gilt zumindest für Sprachenpaare, für die riesige Korpora verfügbar waren bzw. sind und für allgemeine Sachverhalte. Für Fachtexte waren die Ergebnisse weniger überzeugend.)

Einem Laien die neuronale maschinelle Übersetzung zu erklären, ist keine leichte Aufgabe. Grundsätzlich baut sie auf der statistischen maschinellen Übersetzung auf: Auch hier werden nicht vorrangig sprachliche Regeln manuell einprogrammiert. Das Alleinstellungsmerkmal der NMÜ ist jedoch die Nutzung von neuronalen Netzwerken. Hier handelt es sich um leistungsstarke technische Strukturen, die den neuronalen Netzwerken des menschlichen Gehirns ähneln.

Durch die vergleichsweise hohe Qualität der NMÜ wurden tiefgreifende Veränderungen in der Übersetzungsbranche bis hin zur Abschaffung des Übersetzerberufes prognostiziert. Die Folgen sowohl für den Berufszweig als auch für die maschinelle Übersetzung selbst werden hier in weiteren Abschnitten beleuchtet. Betrachten wir aber zunächst ein Beispiel, das einen Einblick in die Problematik der maschinellen Übersetzung gibt.

Von Kühlern und Heizkörpern

Um ein wenig zu verdeutlichen, welche Fortschritte die maschinelle Übersetzung und insbesondere die neuronale maschinelle Übersetzung inzwischen gemacht haben, möchte ich den englischen Beispielsatz „Remove the radiator“ heranziehen.

Hier stellt sich die Frage, ob es sich nun beim „radiator“ um den Kühler eines Fahrzeugs mit Verbrennungsmotor oder einen Heizkörper einer häuslichen Zentralheizung handelt. Beide heißen nämlich auf Englisch „radiator“. (Weitere Bedeutungen sind auch möglich.)

Remove the radiator.
Den Kühler ausbauen (d. h. den Kühler eines Autos aus dem Motorraum ausbauen).

Remove the radiator.
Den Heizkörper abbauen (d. h. den Heizkörper von der Zimmerwand abbauen).

Fehlt der Zusammenhang völlig bzw. besteht die Übersetzungsaufgabe aus diesem einzigen Satz, ist es schlicht unmöglich, hier zuverlässig zu übersetzen. So soll es einen nicht wundern, dass DeepL den allein stehenden Satz „Remove the radiator“ mit „Entfernen Sie den Kühler“ übersetzt, auch wenn es sich beim „radiator“ um einen Heizkörper handelt. Lassen wir die Feinheiten beiseite, dass in idiomatischem Deutsch eher „abbauen“ bzw. „ausbauen“ statt „entfernen“ und die Infinitivkonstruktion anstelle des Imperativs anzutreffen wäre; DeepL kann vor allem nicht hellsehen und nur anhand des Satzes wissen, ob es sich um einen Kühler im Auto oder einen Heizkörper im Wohnzimmer handelt. Der menschliche Übersetzer ist hier mit seinem Latein genauso am Ende.

In einem realen Szenario ist dies jedoch selten der Fall. Der Übersetzer weiß in der Regel aus dem Kontext, worum es geht und übersetzt entsprechend. Bis vor wenigen Jahren waren maschinelle Übersetzungssysteme durch eine solche Aufgabe hoffnungslos überfordert, vor allem weil sie nur Satz für Satz übersetzten. Für ein neuronales maschinelles Übersetzungssystem gilt das nicht unbedingt – vorausgesetzt, sein Korpus ist ausreichend groß und der Kontext ausreichend umfangreich.

Im Gegensatz zum „menschlichen“ Übersetzer fragt sich das maschinelle Übersetzungssystem zwar nicht, um was für einen „radiator“ es sich dann handelt. Im inzwischen riesigen verfügbaren Korpus des Sprachenpaares Deutsch-Englisch findet es aber beide deutsche Bezeichnungen, Kühler und Heizkörper, für die englische Bezeichnung „radiator“, weil hier (menschliche) Übersetzer schon beide Bezeichnungen in ihren Übersetzungen genutzt haben. Das Übersetzungssystem wählt die passende Bezeichnung anhand der Häufigkeit aus, mit der andere Bezeichnungen im vorliegenden Text sowie im Korpus vorkommen. Die Entscheidung hat nichts mit Sinn oder Logik zu tun, sondern ausschließlich mit Wahrscheinlichkeiten.

Wie das Kühlsystem eines Autos oder die Zentralheizung eines Einfamilienhauses aufgebaut ist, davon hat DeepL nicht die geringste Ahnung. Durch die Analyse des verfügbaren Textkorpus' weiß DeepL allerdings, dass „radiator“ statistisch häufig mit „Kühler“ übersetzt wird, wenn die Bezeichnung „engine bay“ oder „cooling system“ im textuellen Umfeld vorkommt. Tauchen dagegen die Bezeichnungen „wall“ oder „central heating system“ im Text auf, wird „radiator“ statistisch häufiger mit „Heizkörper“ übersetzt. Nach diesem Prinzip wählt DeepL die vermeintlich passende deutsche Bezeichnung für „radiator“ aus – auch ohne Kenntnis des Unterschieds.

So übersetzt DeepL zumindest inhaltlich korrekt:

Drain the cooling system. Remove the radiator.
Entleeren Sie das Kühlsystem. Entfernen Sie den Kühler.

Drain the central heating system. Remove the radiator.
Entleeren Sie das Zentralheizungssystem. Entfernen Sie den Heizkörper.

Remove the radiator from the engine bay.
Entfernen Sie den Kühler aus dem Motorraum.

Remove the radiator from the wall.
Entfernen Sie den Heizkörper von der Wand.

[DeepL, abgerufen 08.10.2021]

Dieses Beispiel dient als kleiner Einblick in die Fähigkeiten der neuronalen maschinellen Übersetzung. Gleichzeitig lassen sich dadurch auch deren Grenzen erahnen – mehr dazu im nächsten Abschnitt.

Remove the radiator

Die Herausforderungen für die maschinelle Übersetzung

Immer wieder wurde in der Vergangenheit behauptet, die maschinelle Übersetzung wäre „fast soweit“. Nicht mehr lange, dann könne sie den Menschen beim Übersetzen ersetzen. Immer wieder reichte dann ein kurzer Blick auf den jeweils jüngsten Stand der Ergebnisse um zu verdeutlichen, dass der Fortschritt mitnichten „fast soweit“ ist.

Bei der neuronalen maschinellen Übersetzung dagegen erscheint die Euphorie auf den ersten Blick begründet. Die Qualität verblüfft. Sogar professionelle Übersetzer sind beeindruckt; hinter vorgehaltener Hand traut sich der eine oder andere Kollege zu sagen, Schlechteres hätte er schon mal bei Kollegen gelesen. Mancherorts wird sogar behauptet, die maschinelle Übersetzung habe jetzt in ihrer Qualität den Übersetzer aus Fleisch und Blut überholt.

Warum das nicht so ist und auch nicht sein kann, werden wir in einem weiteren Abschnitt sehen. Hier zunächst aber einige Punkte, die für die maschinelle Übersetzung in ihrer heutigen Form immer noch große Probleme bereiten:

Mehrdeutigkeit

Die Mehrdeutigkeit (Polysemie) dürfte nach wie vor die maschinelle Übersetzung vor ihre größte Herausforderung stellen. Sie hat unterschiedliche Ausprägungen.

Terminologische Mehrdeutigkeit

Die mehrfache Belegung einer einzelnen Bezeichnung wurde schon im letzten Abschnitt anhand des Beispiels „radiator“ beleuchtet. Hier wurde auch gezeigt, wie moderne maschinelle Übersetzungssysteme mit dem Problem umgehen. Weitere Fortschritte sind zu erwarten, da die Korpora immer größer werden und damit immer mehr Hinweise darauf liefern, welche von zwei oder mehreren möglichen Übersetzungen einer Bezeichnung oder eines Ausdrucks die Richtige ist. Bis die Korpora so umfassend sind, dass alle „Problemfälle“ gelöst werden, dürften aber Jahre vergehen – wenn dieser Punkt überhaupt je erreicht wird.

Undeutliche Formulierungen

Unnötig undeutliche („unsaubere“) Formulierungen im Ausgangstext stellen ein weiteres Problem dar. Hier handelt es sich um den menschlichen Faktor: Bekanntlich ist der Mensch unberechenbar. Die Sprache ist auch keine exakte Wissenschaft, sondern stellt Anforderungen an die menschliche Fähigkeit zum logischen Denken und nutzt diese Fähigkeit gerne aus. Der Kleinanzeigentext „For sale: Piano belonging to old lady with carved legs“ ruft beim Leser zwar Schmunzeln hervor, doch besteht bei ihm trotzdem kein Zweifel, dass die geschnitzten Beine am Klavier und nicht an der betagten Verkäuferin zu finden sind.

Unterschiedliche Informationsanforderungen

Eine sprachwissenschaftliche Theorie besagt, dass alles, was sich in einer Sprache zum Ausdruck bringen lässt, ebenfalls in jeder anderen Sprache vermittelt werden kann.

Prinzipiell stimmt das. „Nicht übersetzbare Wörter“ sind nicht unbedingt „nicht übertragbare Konzepte“. Nicht übersetzbare Wörter sind lediglich Bezeichnungen, für die es in der Zielsprache keine eins-zu-eins Entsprechung gibt. Auch in solchen Fällen besitzt die Zielsprache jedoch durchaus die Möglichkeit, den Inhalt zu übertragen, z. B. durch eine Umschreibung.

Problematisch ist aber, wenn Ausgangs- und Zielsprache unterschiedliche Anforderungen an den Informationsumfang stellen. Ein Beispiel:

„My cousin“ ist auf Deutsch entweder „meine Cousine“ oder „mein Cousin“. Das Geschlecht der gemeinten Person geht nicht aus der englischen Bezeichnung hervor. Die englische Sprache kann diese Information mitliefern, und zwar auf unterschiedliche Art und Weise, muss sie aber nicht. Im Deutschen ist es anders: Das Geschlecht muss vermittelt werden.

Sollte im englischen Ausgangstext nichts weiter präzisiert worden sein, kann ein Übersetzer auch diesen Sachverhalt übermitteln, zum Beispiel mit einer Anmerkung. „My cousin gave it to me“ kann entsprechend folgendermaßen übersetzt werden: „Mein Cousin bzw. meine Cousine gab es mir.“

In Extremfällen – etwa im juristischen Bereich –, wo eine 100%ige Übereinstimmung mit dem Informationsgehalt des Ausgangstextes verlangt wird, ist dies evtl. sogar die einzige Lösung. In einer Übersetzung, bei der nicht nur (oder nicht vorrangig) die Kongruenz des Informationsgehaltes, sondern auch die Lesbarkeit im Mittelpunkt steht, sieht es anders aus. In einem Roman zum Beispiel wäre eine solche unhandliche Lösung völlig fehl am Platz. (Der Beispielsatz wirft auch weitere Fragen auf, zum Beispiel zum grammatikalischen Geschlecht des übergebenen Gegenstandes, d. h. ob das Pronomen „es“ richtig ist.)

„Übersetzen Sie nur das, was da steht“ ist also häufig nicht praktikabel. In der Praxis treffen Übersetzer immer wieder Entscheidungen, weil die Zielsprache sie fordert – entweder vermittelte Informationen als für die Aussage unbedeutend zu betrachten und wegzulassen oder Informationen hinzuzufügen. Hinzugefügte Informationen werden teils aus anderen Stellen im Text geholt, teils durch Recherche geschlussfolgert; in manchen Fällen handelt es sich sogar um wohl begründete Vermutungen. Hier treffen professionelle Übersetzer Entscheidungen, zu denen die maschinelle Übersetzung schlicht unfähig ist.

Fachausdrücke

Es ist zu erwarten, dass die maschinelle Übersetzung künftig noch besser mit mehrdeutigen allgemeineren Fachausdrücke wie „radiator“ zurechtkommt, so wie im letzten Abschnitt erwähnt. Bei selteneren Fachausdrücken sowie gängigeren Fachausdrücken mit einer fachspezifischen Bedeutung wird die maschinelle Übersetzung auch in Zukunft an ihre Grenzen stoßen. Nehmen wir das Beispiel des englischen Wortes „cage“, auf Deutsch „Dose“. Wann ist ein „cage“ (Käfig) eine Dose? Vielgereiste Motorradfahrer wissen es vielleicht: Das ist in der englisch- und deutschsprachigen Motorradszene die umgangssprachliche Bezeichnung für ein Auto. Solche Bezeichnungen finden selten den Weg in zweisprachige Korpora. Ein professioneller Übersetzer hätte aber schon nach einigen Minuten Online-Recherche die Lösung des Rätsels gefunden.

Jeder professionelle Fachübersetzer wird Beispiele nennen können von Ausdrücken oder Bezeichnungen, die in keinem Wörterbuch vorkommen, die im Internet nicht einmal zu finden sind, geschweige denn mit der passenden Übersetzung. Solche Fälle sind auch für Profis eine echte Herausforderung – aber für echte Herausforderungen sind Profis auch da.

Neue Konzepte

Wo neue Konzepte entstehen, werden dafür Bezeichnungen gesucht. Bis sie gefunden werden, hat auch der professionelle Übersetzer ein Problem – oder eine Gelegenheit. Es wäre zu wünschen, wenn gerade deutschsprachige Übersetzer ihre Verantwortung ernster nehmen und nicht einfach jeden neuen englischen Ausdruck als „neudeutsch“ unverändert übernehmen würden. Aber wie auch immer solche Ausdrücke gehandhabt werden, der maschinellen Übersetzung fehlt das Rüstzeug für den Umgang damit.

Stilistische Uneinheitlichkeit

Wie schon beschrieben erstellt die neuronale maschinelle Übersetzung den Zieltext anhand vorliegender Übersetzungen, die typischerweise von professionellen Übersetzern erstellt wurden. Dies erklärt die auf den ersten Blick überraschende Qualität. Da jedoch jeder Übersetzer seinen eigenen Stil hat und es auch viele sprachliche Register gibt, soll es einen nicht wundern, wenn diese im maschinell erstellten Zieltext durcheinander gewürfelt werden. Andererseits erweckt die maschinelle Übersetzung manchmal den Eindruck, bestimmte Formulierungen stur nach Schema X übersetzen zu wollen; der Stil wirkt dann zwar einheitlich, jedoch hölzern. Auch dieses Problem wird die maschinelle Übersetzung schwer überwinden können. Möglicherweise pendelt sich ein Einheitsstil ein, der zwar der Verständigung zugute kommt (ähnlich wie die einfache Sprache), aber eindeutig als „Maschinendeutsch“, „Maschinenenglisch“ usw. erkennbar ist. Der Fairness halber muss erwähnt werden, dass Ähnliches auch für Übersetzer gilt, die in eine Fremdsprache übersetzen, die sie nicht auf muttersprachlichem Niveau beherrschen.

Sprache im Wandel

Die Sprache ist im stetigen Wandel. Was einmal eindeutig zu verstehen war, hatte möglicherweise zehn Jahre später eine ganz andere Bedeutung. In Großbritannien bedeutete „a billion“ bis in die 1950er Jahren eine Billion (10¹²); diese Bedeutung wurde allmählich und schließlich 1974 amtlich durch die Bedeutung Milliarde (10⁹) abgelöst. Der Übersetzungsmaschine ist es aber nicht unbedingt ersichtlich, zu welchem Zeitpunkt ein Text geschrieben wurde – und im Gegensatz zum „menschlichen“ Übersetzer kommt sie vor allem nicht auf die Idee, sich zu erkundigen. Auch wenn diese Informationen bekannt sind, ist ihre manuelle Einprogrammierung eine zeitaufwendige und damit ineffiziente Aufgabe.

Die maschinelle Übersetzung lernt. Aber von wem?

Als Grundsatz der Informationstechnologie gilt, dass ein Daten verarbeitendes System nur so gut sein kann, wie die Eingangsdaten. Salopp formuliert: Schrott rein, Schrott raus. Im Falle der maschinellen Übersetzung haben wir es mit Daten auf zwei Ebenen zu tun: denen der Eingangstexte und denen der Referenzkorpora. Das Problem schlechter Eingangstexte wurde oben bereits unter dem Stichwort Mehrdeutigkeit erwähnt.

Schlechte Referenzkorpora sind ein anderes Thema. Von einem Menschen übersetzt heißt nicht unbedingt gut übersetzt. Wie soll ein maschinelles Übersetzungssystem die Qualität dieses Referenzmaterials bewerten?

Die Generaldirektion Übersetzung der Europäischen Kommission hat über die Jahrzehnte große Mengen an Texten übersetzt, die zu einem großen Teil im Internet stehen. Die Qualität dieser Übersetzungen ist nicht ganz unumstritten, insgesamt dürfte sie aber als hoch gelten. Es wäre also für die Betreiber von maschinellen Übersetzungssystemen nicht abwegig, diesen Fundus an Referenzmaterial als insgesamt zuverlässig einzustufen.

Dies bei der Website eines jeden Kleinbetriebes, auf der teilweise nicht einmal eindeutig festzustellen ist, welcher der zwei Texte der Ausgangstext und welcher die Übersetzung ist, ist auf automatisiertem Wege kaum möglich. Eine manuelle Einstufung wiederum scheitert am Effizienzanspruch. Es lässt sich also nicht vermeiden, dass auch Referenzmaterial schlechterer Qualität genutzt wird, um maschinelle Übersetzungssysteme „anzulernen“.

Noch schlimmer ist jedoch: Sollte sich die maschinelle Übersetzung so weit durchsetzen, dass sie allmählich die professionelle Übersetzung zurückdrängt, könnte sich ein Teufelskreis einstellen, in dem solche Systeme zu einem großen Teil von sich selbst lernen und ihre Fehler potenzieren. Dies wird nur dadurch zu vermeiden sein, dass professionelle Übersetzer in das System eingebunden sind.

Damit sind wir beim Thema des nächsten Abschnitts: den Folgen für den Übersetzerberuf bzw. die Übersetzungsbranche.

Tag, Kollege! Kann ich etwas für Sie tun? Vielleicht einen Kaffee bringen?

Die Herausforderungen für die Übersetzungsbranche

Jüngste Entwicklungen

Als Mitte der 2010er Jahre zunehmend davon die Rede war, die maschinelle Übersetzung stünde kurz davor, endlich professionelle Übersetzer abzulösen, reagierten Letztere mit Gelassenheit. Sie hatten es schon immer wieder gehört. Immer wieder stellte sich dann heraus, schon wieder hatten die Techniker die Aufgabe maßlos unterschätzt.

Entsprechend groß war der Schock, als die Kölner Firma DeepL 2017 mit ihrem Übersetzungsdienst auf Basis der neuronalen maschinellen Übersetzung (NMÜ) online ging und der Qualitätsvorsprung über bisherige Systeme ersichtlich wurde.

Diese vergleichsweise hohe Qualität führte in Teilen der Wirtschaft dazu, die NMÜ als eine „disruptive Innovation“ zu betrachten. Das heißt, es wurde ihr das Potential zugesprochen, das bisherige Wirtschaftsmodell in der Übersetzungsbranche weitestgehend zu durchbrechen bzw. zu ersetzen.

Die Reaktion der Branche

Inzwischen sind vier Jahre vergangen und in der Branche ist ein Spektrum an Reaktionen erkennbar. An einem Ende des Spektrums findet sich die völlige Ablehnung der maschinellen Übersetzung. Am anderen wiederum ihre Übernahme ohne jegliche Einbindung von menschlichen bzw. professionellen Übersetzern.

Mancher Übersetzer sieht in der maschinellen Übersetzung keine Relevanz für sich selbst. Auch wenn die Qualität einen Riesenvorsprung darstellt, falle sie noch weit hinter seine professionellen Maßstäbe zurück. Sie diene nicht einmal als Vorlage für eine professionelle Übersetzung; schließlich sei es nicht weniger Aufwand, einen maschinell übersetzten Text auf den professionellen Standard zu bringen, als den Text neu zu übersetzen.

In bestimmten Nischen der Branche mag dieser Standpunkt seine Berechtigung haben. Literarische Werke und Werbetexte werden oft als Beispiele herangezogen. Kaum jemand in der Branche darf aber maschinelle Übersetzungen von der Hand weisen. Ein Blick auf das andere Ende des Spektrums zeigt, warum.

Fortschritte in der maschinellen Übersetzung sind im letzten Jahrzehnt nicht die einzige Entwicklung in der Übersetzungsbranche. Die Branche selbst ist ebenfalls enorm gewachsen. Übersetzte Volumen sind erheblich gestiegen, die Anzahl der Übersetzer ebenso.

Bei einem großen Anteil des neu hinzu gekommenen Übersetzungsvolumens handelt es sich um automatisch übersetzte Texte. In seinem Blog-Artikel von August 2021 vermutet Branchenexperte Jaap van der Meer, dass im Jahr 2019 allein Google 300 Billionen Wörter übersetzte, im Vergleich zu geschätzten 200 Milliarden Wörtern, die von der professionellen Übersetzungsbranche übersetzt wurden. Nimmt man andere große Akteure wie Microsoft Bing Translator, Yandex MT, Alibaba, Tencent, Amazon und Apple hinzu, ist der Gesamtoutput von MÜ-Maschinen wahrscheinlich bereits zehn tausendmal größer als die gesamte Produktionskapazität aller professionellen Übersetzer auf unserem Planeten. (Aus dem Englischen übersetzt durch DeepL Pro.)

Was bedeutet das konkret? Oft nicht mehr, als dass ein Privatmensch den Google-Übersetzer mit einem Online-Artikel bemüht hat, der ihn interessierte. Oder eine Restaurant-Besucherin im Auslandsurlaub mit Hilfe ihres Smartphones aus dem Menü schlau geworden ist. Das hat mit der professionellen Übersetzungsbranche nichts zu tun.

Oder doch? Auf den Onlineplattformen namhafter Wirtschaftsriesen findet man auch große Mengen Texte, die vollautomatisiert übersetzt worden sind. Typische Beispiele sind sogenannte kurzlebige Texte, insbesondere Kundenrezensionen von Produkten in Onlineshops. Diese Übersetzungen werden keineswegs alle von Shopbesuchern selbst in ein Online-MÜ-System eingespeist oder infolge der Betätigung der „Bitte übersetzen“ Schaltfläche durch den Besucher erstellt, sondern werden (auch) durch die Shopbetreiber selbst eingerichtet. Das ist von Bedeutung, denn es zeigt, dass diese Akteure in der möglicherweise mangelhaften Qualität der maschinellen Übersetzung keine Gefahr für ihr Geschäftsmodell sehen. Und wenn nicht dort, warum nicht auch in anderen Bereichen der Wirtschaft?

Bis jetzt war von beiden Enden eines Spektrums die Rede: der kategorischen Ablehnung der maschinellen Übersetzung sowie ihrer vollständigen Übernahme ohne Beteiligung von menschlichen Akteuren. Wie sieht es aber bei den meisten herkömmlichen Akteuren der Übersetzungsbranche aus?

Mit Statistiken zur Nutzung der maschinellen Übersetzung ist es schwierig – vor allem deshalb, weil sich die Sachlage rasant ändert. Zwei Trends sind aber deutlich zu erkennen.

Vieles deutet darauf hin, dass selbstständige Übersetzer in zunehmender Anzahl die maschinelle Übersetzung einsetzen, ohne dies unbedingt bekannt zu machen. Gründe für diese Zurückhaltung sind die Kritik an der Professionalität der Vorgehensweise (sowohl von Kollegen, als auch von Kunden) sowie nicht geklärte Datenschutzfragen bei der Nutzung von Onlinediensten.

Noch deutlicher zu erkennen ist der Trend bei den größeren Akteuren in der Branche (Vermittlern bzw. großen Übersetzungsbüros). Hier hat die maschinelle Übersetzung unverkennbar Einzug gehalten und es wird mit den Vorteilen für den Kunden, hauptsächlich in Form von erheblich niedrigeren Preisen, aggressiv geworben.

Hier handelt es sich allerdings um zwei gegensätzliche Trends. Denn in den Händen von selbstständigen Übersetzern kann die maschinelle Übersetzung als Werkzeug betrachtet werden. Vergleiche mit CAT-Werkzeugen, deren Nutzung seit ca. zwanzig Jahren in der Branche üblich ist, sind durchaus angebracht.

Der Trend bei manchen Übersetzungsbüros dagegen kann sehr gut als eine disruptive Innovation bezeichnet werden. Denn auch wenn Übersetzungsbüros das Marktgeschehen dominieren, die tatsächliche Übersetzungsarbeit wird zum größten Teil immer noch von selbstständigen Übersetzern – also Einzelunternehmern – geleistet. Das Geschäftsmodell von manchen Büros sieht aber inzwischen vor, dass die bisherige Leistung der Übersetzungsdienstleister (also der einzelnen Übersetzer) nicht mehr in Anspruch genommen wird, sondern diesen Dienstleistern eine Anschlussbeschäftigung angeboten wird, und zwar als sogenannte „Post-Editoren“, die den Output des maschinellen Übersetzungssystems auf den geforderten Qualitätsstandard bringen. Das (selbstständige) Personal bleibt also dasselbe: nur seine Funktion, seine Berufsbezeichnung und, natürlich, seine Vergütung ändern sich.

Es ist allerdings fraglich, ob dieses Modell tragfähig ist. Viele Übersetzer beklagen, ihre Einkünfte würden ohnehin seit Jahren bestenfalls stagnieren, nicht wenige leben prekär. Der Beruf ist nicht geschützt und der Einstieg für Gelegenheitsübersetzer ist leicht. Zudem wird der Trend durch verschiedene Onlineakteure gefördert, was wiederum zu einem steigenden Konkurrenzdruck bei gleichzeitiger Erosion der professionellen Standards führt. Sollten unter dem Deckmantel des technologischen Fortschritts die Einkünfte noch weiter fallen, dürfte es nicht wundern, wenn die kompetenten Fachleute, die beim Einsatz der maschinellen Übersetzung noch gebraucht werden, lieber der Branche komplett den Rücken kehren, um weniger anspruchsvollen aber einträglicheren Tätigkeiten nachzugehen.

„Low-hanging fruit“ sagt man dazu im englischsprachigen Raum: sich leichteren und dadurch ertragreicheren Aufgaben widmen, die aufwendigeren Tätigkeiten liegen- oder anderen überlassen.

Etwas hiervon sieht man unter anderem im begeisterten Einsatz der maschinellen Übersetzungstechnik durch manche Übersetzungszwischenhändler. Wenn ein maschinelles Übersetzungssystem von zehn Sätzen neun perfekt (oder zumindest adäquat) übersetzt, müsste der Übersetzer nur den einen Satz übersetzen. Auf den ersten Blick wäre das eine Zeit- und Kostenersparnis von 90 %, könnte (und möchte) man meinen.

Die Rechnung geht aber nicht auf, denn in dem, was die maschinelle Übersetzung nicht schafft, liegen auch die größeren Herausforderungen für den Übersetzer. Es werden Vergütungsmodelle zugrunde gelegt, die diesem Tatbestand nicht Rechnung tragen.

Schon der Ausdruck „low-hanging fruit“ war übrigens für den Verfasser dieses Artikels Anlass für eine Besprechung mit Kollegen und ist vielleicht einen eigenen Kurzbeitrag wert.

Ausblick

Fortgesetzte Fragmentierung der Branche

Prognosen sind schwierig, nicht zuletzt wegen der rasanten Entwicklung der Technologie. Es ist aber durchaus vorstellbar, dass sich die Übersetzungsbranche (noch stärker) fragmentiert.

In dieser Betrachtung bildet der schon erwähnte Bereich der nicht weiter aufgewerteten maschinellen Übersetzung das unterste Segment. Hier werden schon riesige Volumen maschinell „übersetzt“, vor allem für Online-Angebote. Die beruflichen Akteure betrachten diesen Bereich weitgehend als für sich irrelevant, allerdings sind für die breitere Wirtschaft die Grenzen fließend.

Das mittlere Segment ist die sogenannte maschinelle Übersetzung mit „Post-Editierung“. Die Abgrenzung zur reinen maschinellen Übersetzung wird noch weiter aufgeweicht durch sogenannte „Light-Touch-Post-Editierung“: Hinter diesem vermeintlichen Fachausdruck verbirgt sich nichts anderes als der Anspruch des „gerade noch gut genug“.

Schließlich bleibt die professionelle Übersetzung in ihrer herkömmlichen Form, bei der die maschinelle Übersetzung zwar möglicherweise zum Einsatz kommt, doch immer noch unter der Kontrolle des professionellen Übersetzers und im Einklang mit professionellen Standards.

Eine Branche schafft sich ab?

Wie schon oben erläutert basiert die im Vergleich zu früher hohe Qualität der maschinellen Übersetzung darauf, dass sie stark auf der Leistung professioneller Übersetzer aufbaut. Diese Tatsache wird von der Branche durchaus erkannt. Mancher Kollege fordert einen Boykott jeglicher Zusammenarbeit mit der automatisierten Übersetzung. Als Begründung wird angeführt, man würde an dem Ast sägen, auf dem man selbst sitzt: Man helfe damit der Maschine, den Menschen abzuschaffen.

Dass diese Einstellung untragbar ist, zeigt das Eingangsbeispiel der Waschmaschine. Der technische Fortschritt – wenn er tatsächlich als Fortschritt festzustellen ist – ist nicht aufzuhalten. Im einundzwanzigsten Jahrhundert bedauert niemand, dass die Waschmaschine den Beruf der Waschfrau begraben hat. Eine sachliche Auseinandersetzung mit der Thematik ist aber erforderlich.

Wir leben in einem informationsbasierten Zeitalter. Informationen, auch in Form zweisprachiger Korpora, lassen sich nicht mehr unter Verschluss halten; deren Wert liegt immer häufiger gerade in ihrer allgemeinen Zugänglichkeit. Es lässt sich also nicht mehr verhindern, dass die automatisierte Übersetzung vom menschlichen Kollegen „abschreibt“.

Genau hierin liegt aber wohl die größte Gefahr für die maschinelle Übersetzung: Indem sie entweder „menschliche“ Übersetzer völlig ersetzt, oder sie zu ihren Handlangern mit stark eingeschränktem professionellen Beitrag degradiert, entzieht sie sich selbst die Grundlage des eigenen Erfolgs.

Hier liegt wiederum die Herausforderung für den professionellen Übersetzerberuf und gleichzeitig seine Chance.

Bei allem technischen Fortschritt bleibt die Übersetzung ein Teil der Kommunikation von Mensch zu Mensch und ist entsprechend vom Faktor Mensch geprägt. Solange wir diese Kommunikation nicht bis auf ihre Grundzüge einer umfassenden Standardisierung unterwerfen – ein kaum vorstellbares Unterfangen – wird es erforderlich sein, die menschliche bzw. professionelle Komponente stark in den Kommunikationsprozess einzubinden. Eine wesentliche Rolle für professionelle Übersetzer bleibt unabdingbar.

Die Frage ist, ob es der Branche gelingen wird, diese ausschlaggebende Eigenschaft der Wirtschaft und der Öffentlichkeit zu vermitteln und sich entsprechend honorieren zu lassen.